C5-3 柔らかいジャンプ付き編集距離に向けて
背景
機械翻訳システムの評価の自動化は重要
人力だと大変
評価を自動化したい
本研究のタスク
候補文と参照文を単語で分割
候補文=機械翻訳システムが出力したやつ
参照文=翻訳家が翻訳したやつ
候補文と参照文の類似度を測って評価する
語順の考慮
埋め込み
類義語
類義表現
語順考慮と埋め込みを組み合わせる
語順を考慮しない場合
BoW
単語出現回数のコサイン類似度
順番は無視
Vec Sum
単語の埋め込みの平均のコサイン類似度
順番は無視
ある文字列から別の文字列への変換の最小コスト
文字列ペアの類似度を表す
置換、削除、挿入
Cover Disjoint Error Rate
語順の入れ替えに対応するために「ジャンプ」という操作を追加
動的計画法でも計算可能
埋め込み利用編集距離
WED
Word Embedding based Edit Distance
埋め込みで単語の類似度を考慮した操作コストを導入
「意味が似た単語ほど置換のコストは小さい」という前提の編集距離
0 or 1ではなく、0~1にした
提案手法:ジャンプ付き埋め込み利用編集距離
WCDER
Word Embedding based CDER
ジャンプ操作も考慮し、単語の類似性も考慮する
実験
実験目的
WCDERは効果的か?
実験設定
WMT19 newstest19
結果
WCDERは、CDERやWEDのみよりも、翻訳家との相関が高まる
Vec Sumとの比較をすると、近い
ジャンプコスト